Telegram Group Search
🔥 Холивар: scikit-learn — мастодонт ML или пора переходить на что-то посвежее?

🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.

💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.

И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.

👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».

Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях! ⤵️
Инструкция о том, как оставить комментарий: https://www.tg-me.com/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6244

❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи

Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🆕 Свежие новости из мира AI и Data Science

🔥 Модели, релизы и технологии:
Codex от OpenAI — облачный инженерный агент, который пишет код сам
Claude 4 — новая версия от Anthropic, лидер по качеству кода
Google I/O 2025 — анонсы по «разумному» AI: умнее, персональнее, агентнее

🧠 Статьи, исследования и лучшие практики:
Мысль не словами, а образами — модель от Google и Кембриджа, меняющая подход к мышлению
ML-чемпионы: код, железо, стратегия — как побеждают на соревнованиях
«Что у меня за распределение?» — пошаговый гайд от Tinkoff
Теневая сторона AutoML — когда no-code мешает

📘 Обучение и развитие:
To Docker or not to Docker? — как разворачивать JupyterLab правильно
Scikit-learn 2025 — пайплайны, которые не ломаются
Я не люблю NumPy — честный разбор альтернатив
Когда стоит подключать ML? — чтобы не переплатить за автоматизацию

Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻 Топ-вакансий для дата-сайентистов за неделю

Аналитик-разработчик (AliceGPT) —‍ от 300 000 до 450 000 ₽, гибрид (Москва)

Дата Саентист (Data Scientist), офис (Москва)

Data-инженер (команда Data Lake), офис (Москва)

Data Scientist, удалёнка

Инженер по машинному обучению —‍ от 250 000 ₽, удалёнка

Data Analyst —‍ от 80 000 до 100 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
🇦🇪 UAE делает ставку на ИИ — и открывает доступ к ChatGPT Plus для всех

Объединённые Арабские Эмираты стали первой страной в мире, предоставившей бесплатный доступ к ChatGPT Plus всем жителям и гражданам.

Это часть масштабной инициативы Stargate UAE, цель которой — создать крупнейший в мире ИИ-суперкомпьютерный кластер, поддерживаемый такими гигантами, как:

➡️ OpenAI
➡️ Oracle
➡️ Nvidia
➡️ SoftBank
➡️ Cisco
➡️ G42

Кроме того, в Абу-Даби начнётся строительство ИИ-кампуса мощностью 5 гигаватт — самого большого за пределами США. Его мощности хватит для «обслуживания» целого американского штата.

📣 В США мнения разделились: одни считают, что ИИ-экспансия за рубежом несёт риски, другие — что это стратегический шаг в глобальном соперничестве с Китаем.

👉 Подробности: https://clc.to/wN4d5Q

💬 Вы бы пользовались ChatGPT Plus, если доступ был бесплатным?
За что, по-вашему, стоит платить в подписке Plus — и стоит ли вообще?


Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍 Инструмент недели: `torchao` — лёгкое квантование и оптимизация PyTorch-моделей

`torchao` — это новая экспериментальная библиотека от команды PyTorch, разработанная для простого применения квантования, разреживания и других оптимизаций к нейросетевым моделям.

Основные возможности:
📍 `autoquant` — автоматическое квантование модели по слоям, без ручной настройки
📍 поддержка INT8 квантования, совместимого с torch.ao.quantization
📍 интеграция с PyTorch 2.x (использует torch.compile, dynamo, inductor)
📍 поддержка разреживания (sparsity), структурных трансформаций
📍 работа с предварительно обученными моделями — ResNet, MobileNet, Llama и др
📍 возможность применения на CPU/GPU, включая ускорение inference в ONNX и TorchScript

Если вы хотите:
📍 ускорить инференс без потери качества
📍 уменьшить размер модели для edge-устройств или мобильных приложений
📍 минимизировать latency для real-time задач
📍 подготовить модели к выводу на продакшн с минимальным инженерным оверхедом

то torchao может стать отличной альтернативой более сложным инструментам квантования.

Пример использования:
from torchao.quant import autoquant

# Загружаем обученную модель
model = torchvision.models.resnet18(pretrained=True).eval()

# Применяем автоматическое квантование
model = autoquant(model)


🔴 Подробнее на GitHub: https://clc.to/XUsE5g

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
😳 Почему дата-сайентисты застревают на уровне «делаю отчеты и строю модельки»

Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.

При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).

🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»

🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.

🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
Математика для Data Science
Алгоритмы и структуры данных

После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.

👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
🔍 ML после релиза: почему модель может сломаться — и как это вовремя заметить

Внедрили модель, подтвердили гипотезу, получили эффект — работа сделана? Увы, нет.

После деплоя начинается настоящее испытание:
— данные меняются,
— поведение пользователей эволюционирует,
— а ваша модель может незаметно терять эффективность.

📌 Must-read для тех, кто работает с ML в продакшене и хочет, чтобы решения были устойчивыми, а не разовыми.

👉 Читайте, делитесь и не забывайте наблюдать за своими моделями: https://proglib.io/sh/fjpFLVWn8Z

Библиотека дата-сайентиста
📌 Промт дня: анализ важности признаков после обучения модели

После того как вы обучили модель (особенно если это ансамблевый метод вроде Random Forest или градиентного бустинга), важно понять, какие признаки влияют на предсказания.

Это помогает:
— интерпретировать модель,
— упростить её (feature selection),
— обнаружить «лишние» или дублирующие признаки.

Промт:
Проанализируй важность признаков обученной модели. Выполни следующие шаги:

— Извлеки и отсортируй признаки по степени важности.
— Построй barplot с топ-10 признаками.
— Проверь, есть ли признаки с нулевой или близкой к нулю важностью — возможно, их можно удалить.
— Если модель поддерживает SHAP / permutation importance — добавь соответствующую визуализацию.
— Сформулируй гипотезы: почему те или иные признаки оказались важны? Как это согласуется с предметной областью?


Рекомендованные инструменты:
model.feature_importances_ — в sklearn-моделях, XGBoost, LightGBM
eli5, shap, sklearn.inspection.permutation_importance — для глубокой интерпретации
seaborn.barplot, matplotlib — для наглядных графиков

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Вся правда об увольнениях в IT в 2025-м

Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.

Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:

— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы

Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.

⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg
2025/05/28 19:36:25
Back to Top
HTML Embed Code: